In this work, we propose an ID-preserving talking head generation framework, which advances previous methods in two aspects. First, as opposed to interpolating from sparse flow, we claim that dense landmarks are crucial to achieving accurate geometry-aware flow fields. Second, inspired by face-swapping methods, we adaptively fuse the source identity during synthesis, so that the network better preserves the key characteristics of the image portrait. Although the proposed model surpasses prior generation fidelity on established benchmarks, to further make the talking head generation qualified for real usage, personalized fine-tuning is usually needed. However, this process is rather computationally demanding that is unaffordable to standard users. To solve this, we propose a fast adaptation model using a meta-learning approach. The learned model can be adapted to a high-quality personalized model as fast as 30 seconds. Last but not the least, a spatial-temporal enhancement module is proposed to improve the fine details while ensuring temporal coherency. Extensive experiments prove the significant superiority of our approach over the state of the arts in both one-shot and personalized settings.
translated by 谷歌翻译
The recent trend in multiple object tracking (MOT) is jointly solving detection and tracking, where object detection and appearance feature (or motion) are learned simultaneously. Despite competitive performance, in crowded scenes, joint detection and tracking usually fail to find accurate object associations due to missed or false detections. In this paper, we jointly model counting, detection and re-identification in an end-to-end framework, named CountingMOT, tailored for crowded scenes. By imposing mutual object-count constraints between detection and counting, the CountingMOT tries to find a balance between object detection and crowd density map estimation, which can help it to recover missed detections or reject false detections. Our approach is an attempt to bridge the gap of object detection, counting, and re-Identification. This is in contrast to prior MOT methods that either ignore the crowd density and thus are prone to failure in crowded scenes, or depend on local correlations to build a graphical relationship for matching targets. The proposed MOT tracker can perform online and real-time tracking, and achieves the state-of-the-art results on public benchmarks MOT16 (MOTA of 77.6), MOT17 (MOTA of 78.0%) and MOT20 (MOTA of 70.2%).
translated by 谷歌翻译
Federated learning (FL) is a promising approach to enable the future Internet of vehicles consisting of intelligent connected vehicles (ICVs) with powerful sensing, computing and communication capabilities. We consider a base station (BS) coordinating nearby ICVs to train a neural network in a collaborative yet distributed manner, in order to limit data traffic and privacy leakage. However, due to the mobility of vehicles, the connections between the BS and ICVs are short-lived, which affects the resource utilization of ICVs, and thus, the convergence speed of the training process. In this paper, we propose an accelerated FL-ICV framework, by optimizing the duration of each training round and the number of local iterations, for better convergence performance of FL. We propose a mobility-aware optimization algorithm called MOB-FL, which aims at maximizing the resource utilization of ICVs under short-lived wireless connections, so as to increase the convergence speed. Simulation results based on the beam selection and the trajectory prediction tasks verify the effectiveness of the proposed solution.
translated by 谷歌翻译
图神经网络(GNN)从材料科学家那里引起了越来越多的关注,并证明了建立结构和属性之间的连接的高能力。但是,只有仅提供的未删除结构作为输入,很少有GNN模型可以预测带有可接受的误差水平的放松配置的热力学特性。在这项工作中,我们开发了基于Dimenet ++和混合密度网络的多任务(MT)体系结构,以提高此类任务的性能。将基于CU的单原子合金催化剂的共吸附作为例证,我们表明我们的方法可以可靠地估计CO的吸附能,其平均绝对误差为0.087 eV,从初始CO的吸附结构中,而无需昂贵的第一原则计算。此外,与其他最先进的GNN方法相比,我们的模型在预测具有看不见的底物表面或掺杂物种的催化性能时具有提高的概括能力。我们表明,拟议的GNN策略可以促进催化剂发现。
translated by 谷歌翻译
有趣的认识对于移动机器人的自主探索中的决策至关重要。先前的方法提出了一种无监督的在线学习方法,该方法可以适应环境并迅速检测有趣的场景,但缺乏适应人类知名对象的能力。为了解决这个问题,我们引入了人际关系框架,空中互动,该框架可以通过几乎没有在线学习来检测人类信息的对象。为了减少沟通带宽,我们首先在无人管的车辆上应用在线无监督的学习算法,以识别有趣的识别,然后仅将潜在的有趣场景发送到一个基础站,进行人类检查。人类操作员能够为特定有趣的对象绘制和提供边界框注释,这些对象被发送回机器人,通过几次学习来检测类似的对象。该机器人只使用少数人标记的示例,才能在任务中学习新颖的对象类别,并检测包含对象的有趣场景。我们在各种有趣的场景识别数据集上评估我们的方法。据我们所知,这是自主探索的第一个人类知识的几杆对象检测框架。
translated by 谷歌翻译
基于步态阶段的控制是步行AID机器人的热门研究主题,尤其是机器人下限假体。步态阶段估计是基于步态阶段控制的挑战。先前的研究使用了人类大腿角的整合或差异来估计步态阶段,但是累积的测量误差和噪声可能会影响估计结果。在本文中,提出了一种更健壮的步态相估计方法,使用各种运动模式的分段单调步态相位大角模型的统一形式。步态相仅根据大腿角度估算,这是一个稳定的变量,避免了相位漂移。基于卡尔曼滤波器的平滑液旨在进一步抑制估计步态阶段的突变。基于提出的步态相估计方法,基于步态阶段的关节角跟踪控制器是为跨股骨假体设计的。提出的步态估计方法,步态相和控制器通过在各种运动模式下的步行数据进行离线分析来评估。基于步态阶段的控制器的实时性能在经际假体的实验中得到了验证。
translated by 谷歌翻译
我们介绍了联合多维缩放,这是一种无监督的歧管比对的新方法,该方法从两个不同的域中映射数据集,没有数据集中的数据实例之间没有任何已知的对应关系,以绘制到一个常见的低维欧几里得空间。我们的方法集成了多维缩放(MDS)和Wasserstein Procrusteres分析成一个关节优化问题,以同时生成数据的等距嵌入数据,并从两个不同数据集中学习实例之间的对应关系,而仅需要内部范围内的成对差异差异作为输入。这种独特的特征使我们的方法适用于数据集,而无需访问输入功能,例如求解不精确的图形匹配问题。我们提出了一种交替优化方案,以解决可以完全受益于MDS和Wasserstein Procrustes的优化技术的问题。我们证明了方法在几种应用中的有效性,包括两个数据集的联合可视化,无监督的异质域的适应性,图形匹配和蛋白质结构比对。
translated by 谷歌翻译
当机器人在城市环境中导航时,大量动态物体的出现将使空间结构多样化。因此,在线删除动态对象至关重要。在本文中,我们为高度动态的城市环境介绍了一个新颖的在线拆除框架。该框架由扫描到图的前端和地图对后端模块组成。前端和后端都深入整合了基于可见性的方法和基于地图的方法。该实验在高度动态的模拟方案和现实世界数据集中验证了框架。
translated by 谷歌翻译
Vision Transformer(VIT)表明了其比卷积神经网络(CNN)的优势,其能够捕获全球远程依赖性以进行视觉表示学习。除了VIT,对比度学习是最近的另一个流行研究主题。尽管以前的对比学习作品主要基于CNN,但一些最新的研究试图共同对VIT进行建模和对比度学习,以增强自我监督的学习。尽管取得了很大的进步,但这些VIT和对比学习的组合主要集中在实例级对比度上,这些对比度通常忽略了全球聚类结构的对比度,并且缺乏直接学习聚类结果(例如图像)的能力。鉴于这一点,本文提出了一种端到端的深层图像聚类方法,称为对比群(VTCC)的视觉变压器(VTCC),据我们所知,该方法首次统一了变压器和对比度学习的对比度学习。图像聚类任务。具体而言,在微型批次中,在每个图像上执行了两个随机增强,我们利用具有两个重量分担视图的VIT编码器作为学习增强样品的表示形式。为了纠正VIT的潜在不稳定,我们结合了一个卷积茎,该卷积茎使用多个堆叠的小卷积而不是斑块投影层中的大卷积,将每个增强样品分为一系列斑块。通过通过主干学到的表示形式,实例投影仪和群集投影仪将进一步用于实例级对比度学习和全球聚类结构学习。在八个图像数据集上进行的广泛实验证明了VTCC的稳定性(在训练中)和优越性(在聚类性能中)比最先进的。
translated by 谷歌翻译
随着电子商务行业的爆炸性增长,检测现实世界应用中的在线交易欺诈对电子商务平台的发展越来越重要。用户的顺序行为历史提供有用的信息,以区分从常规支付的欺诈性付款。最近,已经提出了一些方法来解决基于序列的欺诈检测问题。然而,这些方法通常遭受两个问题:预测结果难以解释,并且对行为的内部信息的利用不足。为了解决上述两个问题,我们提出了一个分层可解释的网络(母鸡)来模拟用户的行为序列,这不仅可以提高欺诈检测的性能,还可以使推理过程解释。同时,随着电子商务业务扩展到新域名,例如新的国家或新市场,在欺诈检测系统中建模用户行为的一个主要问题是数据收集的限制,例如,非常少的数据/标签。因此,在本文中,我们进一步提出了一种转移框架来解决跨域欺诈检测问题,其旨在从现有域(源域)的知识传输足够的域(源域),以提高新域中的性能(目标域)。我们所提出的方法是一般的转移框架,不仅可以应用于母鸡而且可以在嵌入和MLP范例中应用各种现有模型。基于90个转移任务实验,我们还表明,我们的转移框架不仅可以促进母鸡的跨域欺诈检测任务,而且对于各种现有模型也是普遍的和可扩展的。
translated by 谷歌翻译